Visualizing the Impact of Feature Attribution Baselines
Esta página se basa en el artículo Visualizing the impact of features attribution baselines (Visualizando el impacto de las características de líneas de base) disponible en el siguiente enlace. Introducción.
El algoritmo de gradientes integrados es un método que calcula cuál de las características es importante para una red neuronal cuando se hace una predicción. El método ha sido usado para interpretar redes entrenadas con una variedad de datos amplia, que incluye retinografía y electrocardiogramas.
En cada sección se colocan enlaces a videos para que al lector le resulte más fácil los temas abordados por el artículo.
Clasificación de imagenes.
A lo largo de todo el artículo los ejemplos tomados se centran unicamente en el reconocimiento de imagenes, lo anterior se debe a que resulta más fácil observar las cualidades del algoritmo de gradientes integrados y compararlo con nuestra intuición acerca de cuáles son los pixeles más importantes de una imagen para identificar su contenido. La red neuronal usada en los ejemplos es la Inception V4, una red neuronal convolucional diseñada para clasificar una imagen dentro de 1000 categorías disponibles; el conjunto de datos en el que se basó el diseño de la red en el imageNet dataset.
ImageNet es una base de datos organizada acorde con una jerarquia WordNet, en la que cada nodo de la jerarquía es representada por miles de imagenes.
La selección de la arquitectura de la red, se hizo al considerar que Inception V4 tiene una precisión superior al 80% al predecir los datos del conjunto de imagenes de validación.
Resulta sorprendente como es que la red neuronal averigua cuál es el objeto de la imagen. Existen muchos métodos para interpretar modelos de machine learning, incluyendo métodos para visualizar y entender cómo es que las redes representan las entradas internamente, por ejemplo, métodos de atribución de propiedades que asignan un valor a cada una de las propiedades para cada una de las entradas, o métodos de prominencia que identifican las regiones de la imagen que determinan la decisión de la red. Ambos métodos no son mutuamente excluyentes: un método de atribución puede ser visualizado como un metodo de prominencia y un metódo de prominencia puede valorar la imporancia de cada pixel individual. Cabe aclarar que en el artículo se encfoca en el método de asignación de propiedades de gradientes integrados.
Formalmente, dada una entrada objetivo x y una función f, los métodos de atribución de propiedades asignan una puntuación
a la i-esima propiedad, la cual representa la cantidad que suma o resta la propiedad a la salida de la red. Un valor
positivo o negativo con una magnitud grande, indica que la propedad i incrementa o decrementa en un alto grado la salida
respectivamente. Entonces una puntuación cercana a cero indica que esa propiedad no tiene una influencia significativa en
. A continuación se muestran 4 imagenes pertenecientes a la base de datos ImageNet. En cada caso a la derecha se coloca una gráfica que indica cuáles son los pixeles más importantes para la predicción de la red usando gradientes integrados. Los pixeles en blanco indican los pixeles más importantes. A la derecha se grafican las 5 clases con las puntuaciones más altas.


Vertex AI es la plataforma unificada de aprendizaje automático de Googlee cloud. En su documentación acerca de machine learning se encuentra el siguiente ejemplo que ayuda a entender mejor los métodos de atribución de propiedades.
Una red neuronal profunda está entrenada para predecir la duración de un viaje en bicicleta, según los datos del clima y los datos compartidos de viajes anteriores. Si solo solicitas predicciones de este modelo, obtendrás predicciones de la duración de los viajes en bicicleta en minutos. Si solicitas explicaciones, obtendrás la duración prevista del viaje en bicicleta, y una puntuación de atribución relativa a cada atributo de la solicitud de explicaciones. Las puntuaciones de atribución muestran cuánto influyó el atributo en el cambio del valor de la predicción, en relación con el valor del modelo de referencia que especificaste. Elige un modelo de referencia que sea relevante para el modelo (en este caso, la duración media del viaje en bicicleta). Puedes trazar la puntuación de atribución de atributos para ver cuáles son los atributos que más contribuyeron a la predicción resultante.
Una mejor comprensión gradientes integrados.
Para entender mejor el comportamiento del algoritmo observado en los 4 casos anteriores, es necesario precisar cómo es que se calcularon las atribuciones para cada propiedad. Formalmente, gradientes integrados define la puntuación para la propiedad i-ésima con la siguiente fórmula:
Donde:
- x es la entrada actual.
- f es la función del modelo.
es una entrada de linea base que representa la "ausencia" de una característica de entrada.
El termino
se denomina diferencia de linea de base. La integral se hace desde la línea de base hasta la entrada.
El termino
se denomina gradiente local acumulado. Por lo tanto la fórmula que la puntuación se obtiene al acumular los gradientes interpolando la imagen entre el valor de linea base y la entrada actual. Ahora bien, ¿cómo es que esto tiene sentido? Primero consideremos que el gradiente de una función representa la dirección de máximo crecimiento. En este caso el gradiente indica cuál de los pixeles tiene la pendiente más inclinada con respecto a la salida. Por esta razón, el gradiente de la red a una entrada, fue uno de los primeros métodos de prominencia utilizados.
Desafortunadamente, existen muchos problemas cuando se usa el gradiente para interpretar redes neuronales profundas (deep neuronal networks). Uno en específico se denomina saturación; se basa en que el gradiente de las propiedades puede tener magnitudes pequeñas en una muestra aunque el resultado de una red depende significativamente de esas propiedades. Esto puede pasar si la salida de la red se aplana después de que esas propiedades alcanzan cierta magnitud. Intuitivamente, desplazarse en los pixeles de una región pequeña de una imagen no cambia lo que la red identifica de la imagen. Para entender mejor la saturación en redes neuronales se muestran las siguientes 4 gráficas hechas a partir de las imagenes consideradas en la sección anterior. En cada caso se grafica la salidad de la red en todas las imagenes entre la línea base y la imagen actual. Las figuras indican que la salida de la red para la clase correcta incrementa inicialmente, pero rapidamente cambia el ritmo al que se incrementa, lo cual se refleja en un aplanamiento de la gráfica. Después de valores de alfa mayores a 1, la salida para esa propiedad se incrementa muy poco.




Es interesante considerar la forma en que la red parte de predecir nada en la linea de base (
) y llega a estar completamnete saturada hacia la categoría correcta de la clase en x. En este punto surge la pregunta, ¿cuáles pixeles, cuando se sigue esta ruta, incrementan de forma significativa la salida de la red hacia la categoría correcta? Esto es lo que la fórmula de gradientes integrados indica. Debido a que los límites de integración van desde la línea base hasta la entrada, la fórmula de gradientes integrados evita problemas cuando gradientes locales se saturan. La ecuacion original se puede descomponer en tres partes:
1.La interpolación de la imagen entre la línea base y la imagen objetivo.
2. Los gradientes de la interpolación de la imagen.
3. El valor acumulado de los gradientes en el punto α.
A continuación se muestran 4 imagenes que muestran estos tres elementos y la suma del gradiente acumulado conforme se incrementa alfa, en este caso solo se muestra lo que sucede con una imagen, no obstante es clara la forma en que la suma del gradiente acumulado alcanza valores máximos para valores muy pequeños de alfa. Cuando alfa es 1, la suma del gradiente acumulado es prácticamente 0. Otro aspecto destacable es que la imagen interpolada comienza siendo un cuadrado completamente negro y conforme alfa iguala a 1, se obtiene la imagen original.
Con la intención de comprender mejor las líneas base, antes es necesario hacer un paréntesis breve para hablar de la teoría de juegos.
Teoria de juegos y datos faltantes
Los gradientes integrados se inspiran en el trabajo de la teoría de juegos cooperativos, específicamente el valor de Aumann-Shapley.
En teoría de juegos cooperativos, un juego no atómico es una construcción utilizada para modelar sistemas económicos a gran escala donde hay suficientes participantes que es deseable modelarlos continuamente. Los valores de Aumann-Shapley proporcionan una forma teóricamente fundamentada de determinar cuánto contribuyen al sistema los diferentes grupos de participantes.
Estamos interesados en cómo cada característica afecta la predicción de un punto de datos. En un modelo lineal es fácil calcular los efectos individuales. Así es como se ve una predicción de modelo lineal para una instancia de datos:
donde x es la instancia para la que queremos calcular las contribuciones. Cada
es un valor de característica, con j = 1, …, p.
es el peso correspondiente al atributo j. La contribución
de la función j-ésima en la predicción
es: donde
es la estimación del efecto medio para la característica j. La contribución es la diferencia entre el efecto de la característica menos el efecto promedio. Esto representa cuanto contribuyo cada caracteristica a la prediccion. Si sumamos todas las contribuciones de caracteristicas para una instancia, obtenemos el siguiente resultado: Este es el valor predicho para el punto de datos x menos el valor promedio predicho. Donde las contribuciones de funciones pueden ser negativas.
Para poder hacer esto en cualquier tipo de modelo nos ayudamos de la teoria de juegos cooperativos. El valor de Shapley se define mediante una función de valor val de jugadores en S.
El valor de Shapley de un valor de característica es su contribución al pago, ponderado y sumado sobre todas las combinaciones posibles de valor de característica
donde S es un subconjunto de las características utilizadas en el modelo, x es el vector de valores de características de la instancia a explicar y p el número de características.
es la predicción para los valores de características en el conjunto S que están marginados sobre las características que no están incluidas en el conjunto S: Nota: El valor de la característica es el valor numérico o categórico de una característica e instancia; el valor de Shapley es la contribución de la característica a la predicción; la función de valor es la función de pago para coaliciones de jugadores (valores de características).
El valor de Shapley es el único método de atribución que satisface las propiedades Eficiencia, Simetría, Dummies y Aditividad, que juntas pueden considerarse una definición de pago justo
En la teoría de juegos, una noción de falta está bien definida. Los juegos se definen en coaliciones - conjuntos de participantes - y para cualquier coalición específica, un participante del sistema puede estar dentro o fuera de esa coalición. El hecho de que los juegos puedan ser evaluados en coaliciones es la base del valor de Aumann-Shapley. Intuitivamente, calcula cuánto valor agrega un grupo de participantes al juego calculando cuánto aumentaría el valor del juego si agregamos más de ese grupo a una coalición determinada.
Los datos que faltan pueden aparecer en diferentes contextos. En las encuestas estadísticas, a menudo algunos encuestados no responden a todas las preguntas. En quimiometría, las respuestas pueden estar fuera del rango del instrumento, algunas mediciones pueden ser demasiado costosas de llevar a cabo para todos los objetos y los datos pueden faltar debido a un mal funcionamiento de los instrumentos. En la quimiometría de proceso, los datos faltantes pueden aparecer por varias razones: falla del sensor o falla en la comunicación entre la instrumentación y el sistema de control digital (DCS), sensores tomados fuera de línea para el mantenimiento de rutina, muestras manuales no recolectadas en los momentos requeridos, datos descartados debido a errores de medición graves y sensores con diferentes períodos de muestreo. En el monitoreo y control de procesos por lotes en línea, en cada momento se desconoce el comportamiento futuro del proceso, y luego se puede tratar como valores faltantes. Las matrices de datos incompletas pueden surgir de diseños experimentales, como resultado de un muestreo insuficiente, altos costos y errores en las mediciones o durante la adquisición de datos. En los estudios de expresión génica, los valores faltantes se observan con bastante frecuencia al analizar los datos de microarrays. y una de las cuestiones se refiere a los mecanismos que conducen a la falta de datos y, en particular, a la cuestión de si el hecho de que falten variables está relacionado con los valores subyacentes de las variables en el conjunto de datos. Los mecanismos de datos faltantes son cruciales porque las propiedades de los métodos de datos faltantes dependen en gran medida de la naturaleza de las dependencias en estos mecanismos.
Para seleccionar un enfoque válido para el problema de datos faltantes, es necesario averiguar por qué faltan valores. Es posible que falten diferentes valores en el conjunto de datos por diferentes razones. La pregunta importante es si faltan las variables que faltan porque están relacionadas con los valores subyacentes de las variables en el conjunto de datos.
Normalmente se consideran tres mecanismos de datos faltantes:
Falta completamente al azar (MCAR): no existe relación entre los valores de las variables (observadas y faltantes) y la probabilidad de que falten. Los elementos faltantes son simplemente una muestra aleatoria de los datos observados
Falta al azar (MAR): la falta depende solo de los datos observados y no de los valores que faltan.
No falta al azar (NMAR) o no discernible (NI): la probabilidad de que falte un elemento depende del valor no observado de los elementos faltantes y de la ley de falta, no se puede simplificar (es decir, depende de cantidades no observadas).
La no ignorabilidad (NMAR) significa que necesitamos modelar el mecanismo de datos faltantes para obtener buenas estimaciones de los parámetros de interés, y esto requiere métodos bastante especializados. Por el contrario, la ignorabilidad básicamente significa que no necesitamos modelar el mecanismo de datos faltantes como parte del proceso de estimación. MCAR es ignorable y MAR puede hacerse ignorable bajo el análisis apropiado. Si incluimos las variables del mecanismo, entonces podemos ignorar los problemas con los datos MAR. Pero ciertamente necesitamos técnicas especiales para utilizar los datos de una manera eficiente.
Desafortunadamente, la falta es una noción más difícil cuando hablamos de modelos de aprendizaje automático.
Con el fin de evaluar la importancia de la
.La característica es que queremos poder calcular cuánto aumentaría la salida de la red si aumentamos sucesivamente la "presencia" de la
característica. Pero, ¿qué significa esto exactamente? Para aumentar la presencia de una característica, tendríamos que comenzar con la característica "faltante" y tener una forma de interpolar entre esa falta y su valor actual y conocido. Con suerte, esto suena terriblemente familiar. Los degradados integrados tienen una entrada de línea base x' exactamente por esta razón: modelar una característica ausente. Pero, ¿cómo debes elegir? x' con el fin de representar mejor esto? Parece ser una práctica común elegir una entrada de referencia x' ser el vector de todos los ceros. Pero considere el siguiente escenario: ha aprendido un modelo en un conjunto de datos de atención médica, y una de las características es el nivel de azúcar en la sangre. El modelo ha aprendido correctamente que los niveles excesivamente bajos de azúcar en la sangre, que corresponden a la hipoglucemia, son peligrosos. ¿Un nivel de azúcar en la sangre de 0 ¿Parece una buena opción para representar la falta?
El punto aquí es que los valores de característica fijos pueden tener un significado no deseado. El problema se agrava aún más cuando se considera la diferencia con respecto al término de referencia
. Por el bien de un experimento mental, supongamos que un paciente tiene un nivel de azúcar en la sangre de 0. Para comprender por qué nuestro modelo de aprendizaje automático cree que este paciente está en alto riesgo, ejecute gradientes integrados en este punto de datos con una línea de base del vector de todos los ceros. El nivel de azúcar en la sangre del paciente tendría 0 importancia de la característica, porque
. Esto es a pesar del hecho de que un nivel de azúcar en la sangre de 0 sería fatal! Encontramos problemas similares cuando nos movemos al dominio de la imagen. Si utiliza una imagen negra constante como línea de base, los degradados integrados no resaltarán los píxeles negros como importantes, incluso si los píxeles negros constituyen el objeto de interés. En términos más generales, el método es ciego al color que utiliza como línea de base, que ilustramos con la figura a continuación. Tenga en cuenta que esto fue reconocido por los autores originales, y de hecho es fundamental para la definición de una línea de base: ¡no querríamos que los gradientes integrados resaltaran las características faltantes como importantes! Pero entonces, ¿cómo evitamos dar cero importancia al color de referencia?
Opciones alternativas de la línea de base.
Está claro que cualquier línea de base (baseline) de color constante tendrá este problema donde nos lleva a la cuestión de saber si existen alternativas para esto. Por lo tanto, en esta sección comparamos cuatro opciones alternativas para una línea de base en el dominio de la imagen. Antes de continuar, es importante señalar que este artículo no es el primero que señala la dificultad de elegir una línea de base. Varios artículos, incluido el original, discuten y comparan varias nociones de "missingness", tanto en el contexto de los gradientes integrados como en general. No obstante, la elección de la línea de base adecuada sigue siendo un reto. Tomando esto en cuenta, se presentan a continuación algunas opciones de líneas de base y su representación.
La línea de base de máxima distancia
Si nos preocupa que las líneas de base constantes sean ciegas al color de la línea de base, esto nos lleva a el planteamiento de construir una línea de base que no sufra este tipo de problema. Para ello, una forma de construir este tipo de línea de base es tomar la imagen mas lejana en la distancia “L1” de la imagen actual de tal forma que la línea de base siga estando en el rango de pixeles valido. Esta línea de base, a la que nos referimos como línea de base de máxima distancia (denotada como max.dist. en la figura siguiente), evita directamente el problema de la diferencia con respecto a la línea de base.

La línea de base borrosa.
El problema con la línea de base de la distancia máxima es que no representa realmente la falta de información (missingness). En realidad, contiene mucha información sobre la imagen original, lo que significa que ya no estamos explicando nuestra predicción en relación con la falta de información. Para preservar mejor la noción de falta de información, tomamos inspiración de [1]. En el artículo, Fong y Vedaldi utilizan una versión borrosa de la imagen como forma especifica de representar la falta de información. Esta línea de base es muy atractiva ya que captura la noción de falta de información en las imágenes de una manera muy intuitiva para el ser humano. En la figura siguiente, esta línea de base se denota como desenfoque (blur). La figura permite jugar con la constante de suavizado utilizada para definir la línea de base. 
Al aumentar cada vez mas esta constante de suavizamiento nuestra imagen se hará cada vez mas borrosa (esto crea una representacion de mayor perdida de informacion), esto se puede ver representado en la siguiente imagen.
La línea de base uniforme
Un posible inconveniente de la línea de base borrosa es que está sesgada para resaltar la información de alta frecuencia. Los píxeles que son muy similares a sus vecinos pueden tener menos importancia que los píxeles que son muy diferentes a sus vecinos, porque la línea de base se define como una media ponderada de un píxel y sus vecinos. Para superar esto, podemos volver a inspirarnos en ambos [1] y en el documento original de los gradientes integrados. De esta manera, otra forma de definir la ausencia de datos es simplemente muestrear una imagen uniforme al azar en el rango de píxeles válido y llamarla línea de base. En la figura siguiente nos referimos a esta línea de base como “uniform”.
La línea de base gaussiana.
Por supuesto, la distribución uniforme no es la única distribución de la que podemos obtener ruido aleatorio. En el artículo sobre el SmoothGrad, Smilkov et al. [2] crean frecuencia usando una distribución gaussiana centrada en la imagen actual con varianza σ. De esta manera, podemos utilizar la misma distribución como línea de base para los gradientes integrados. En la figura siguiente, esta línea de base es llamada “gaussian” donde se puede variar la desviación estándar de la distribución σ. Una cosa para tener en cuenta aquí es que truncamos la línea de base gaussiana en el rango de píxeles válidos, lo que significa que a medida que σ se acerca a ∞, la línea de base gaussiana se acerca a la línea de base uniforme.
Promedio de varias líneas de base.
Es posible que se tenga dudas sobre estas dos últimas líneas de base (uniforme y gaussiana), y está bien en tenerlas. Una línea de base generada aleatoriamente puede sufrir el mismo problema de ceguera que una imagen constante. Si dibujamos una imagen aleatoria uniforme como línea de base, hay una pequeña posibilidad de que un píxel de la línea de base esté muy cerca de su correspondiente píxel de entrada en valor. Por lo tanto, esos píxeles no se destacarán como importantes. Dando como resultado que el mapa de prominencia resultante pueda tener defectos debido a la línea de base dibujada al azar. Por lo tanto, esto nos plantea, ¿Hay alguna forma de solucionar este problema?
Tal vez la forma más natural de hacerlo es promediar sobre múltiples líneas de base diferentes, como se discute en [3,4,5]. Aunque hacer esto puede no ser particularmente natural para las imágenes de color constante (¿Qué colores se eligen para promediar y por qué?), es una noción muy natural para las líneas de base obtenidas de las distribuciones. Basta con extraer más muestras de la misma distribución y promediar las puntuaciones de importancia de cada muestra.
Asumiendo una distribución.
En este punto, es conveniente relacionar la idea de promediar sobre múltiples líneas de base con la definición original de gradientes integrados. Cuando promediamos sobre múltiples líneas de base de la misma distribución D, estamos intentando utilizar la propia distribución como nuestra línea de base. Utilizamos la distribución para definir la noción de ausencia: si no conocemos el valor de un píxel, no suponemos que su valor sea 0, sino que suponemos que tiene alguna distribución subyacente D. Formalmente, dad una distribución de línea de base D, integramos sobre todas las líneas de base posibles
ponderada por la función de densidad
: 
En cuanto a la ausencia de datos, suponer una distribución puede parecer intuitivamente una suposición más razonable que suponer un valor constante. Pero esto no resuelve del todo el problema: en lugar de tener que elegir una línea de base
, ahora tenemos que elgir una distribución de líneas de base D. ¿Se ha pospuesto simplemente el problema? En la próxima sección se discutirá una forma teóricamente motivada de elegir D, pero antes se hará un breve inciso para hablar de cómo calculamos la fórmula anterior en la práctica, y de una conexión con un método existente que surge como resultado.
Expectativas y conexiones con SmoothGrad.
Ahora que hemos introducido una segunda integral en nuestra fórmula, necesitamos hacer una segunda suma discreta para aproximarla, lo que requiere un hiperparámetro adicional: el número de líneas de base a muestrear.
En [4], Erion et al. hacen la observación de que ambas integrales pueden pensarse como expectativas: la primera integral como una expectativa sobre D, y la segunda integral como una expectativa sobre el camino entre
y x. Esta formulación, denominada “gradientes esperados”, esta definida formalmente como: Los gradientes esperados y los gradientes integrados pertenecen a una familia de métodos conocidos como "métodos de atribución de trayectorias" porque integran gradientes sobre una o más trayectorias entre dos entradas válidas. Tanto los gradientes esperados como los gradientes integrados utilizan trayectorias rectilíneas, pero también se pueden integrar sobre trayectorias que no son rectas. Para calcular los gradientes esperados en la práctica, utilizamos la siguiente fórmula:
Donde
es la j-enesima muestra de D y
es la j-enesima muestra de la distribución uniforme entre 0 y 1. Supongamos ahora que utilizamos la línea de base gaussiana con varianza
. Entonces podemos reescribir la fórmula de los gradientes esperados de la siguiente manera: Donde
. Esto se parece mucho a un método existente llamado SmoothGrad. Si utilizamos la variante (gradientes ×\times× imagen de entrada) de SmoothGrad, entonces tenemos la siguiente fórmula: Podemos ver que SmoothGrad y los gradientes esperados con una línea de base gaussiana son bastante similares, con dos diferencias clave: SmoothGrad multiplica el gradiente por
mientras que los gradientes esperados se multiplican sólo por
, y mientras que los gradientes esperados muestrean uniformemente a lo largo de la trayectoria, SmoothGrad siempre muestrea el punto final
. Cuando asumimos la distribución gaussiana anterior como nuestra línea de base, estamos asumiendo que cada uno de nuestros valores de píxeles se extrae de una gaussiana independientemente de los demás valores de píxeles. Pero sabemos que esto está lejos de ser verdad: en las imágenes, existe una rica estructura de correlación entre los píxeles cercanos. Una vez que la red conoce el valor de un píxel, no necesita realmente utilizar sus vecinos inmediatos porque es probable que esos vecinos inmediatos tengan intensidades muy similares.
Suponer que cada píxel se obtiene de una gaussiana independiente rompe esta estructura de correlación. Significa que los gradientes esperados tabulan la importancia de cada píxel independientemente de los valores de los demás píxeles. Los mapas de prominencia generados tendrán menos ruido y resaltarán mejor el objeto de interés porque ya no estamos permitiendo que la red se base en un solo píxel de un grupo de píxeles correlacionados. Esta puede ser la razón por la que SmoothGrad es suave: porque está asumiendo implícitamente la independencia entre los píxeles. En la figura siguiente, se muestra la comparación de los gradientes integrados con una única línea de base dibujada al azar con los gradientes esperados muestreados sobre una distribución. Para la línea de base gaussiana, también se puede alternar la opción SmoothGrad para utilizar la fórmula SmoothGrad anterior. Para todas las figuras,
. Tomando en cuenta a "uniform baseline" tenemos:
Mientras que al usar "gaussian baseline" tenemos:
Al usar la propiedad de Multi-reference hace que en vez de tomar una sola linea de base, toma varias de la misma distribución.
Tomando en cuenta a "uniform baseline" tenemos:
Mientras que al usar "gaussian baseline" tenemos:
Utilización de la distribución de entrenamiento.
¿Es realmente razonable asumir la independencia entre los píxeles al generar mapas de prominencia? En el aprendizaje supervisado, suponemos que los datos proceden de una distribución
. Esta suposición de que los datos de entrenamiento y de prueba comparten una distribución subyacente común es lo que nos permite realizar un aprendizaje supervisado y hacer afirmaciones sobre la generalizabilidad. Dada esta suposición, no necesitamos modelar la ausencia de datos utilizando una distribución gaussiana o uniforme: podemos utilizar
para modelar la ausencia de datos directamente. El único problema es que no tenemos acceso a la distribución subyacente. Pero como se trata de una tarea de aprendizaje supervisado, tenemos acceso a muchas extracciones independientes de la distribución subyacente: ¡los datos de entrenamiento! Podemos simplemente utilizar muestras de los datos de entrenamiento como extracciones aleatorias de
. Esto nos lleva a la variante de los gradientes esperados utilizados en [4], que de nuevo visualizamos en tres partes: Una representación visual de los gradientes esperados. En lugar de tomar las contribuciones de un solo camino, los gradientes esperados promedian las contribuciones de todos los caminos definidos por la distribución de datos subyacente. Donde al aumentar las muestras obtenemos:
Para las primeras 100 muestras.
Para las 400 muestras.
En (4) volvemos a representar la suma de las puntuaciones de importancia sobre los píxeles. Como se menciona en el artículo original sobre los gradientes integrados, todos los métodos de trayectoria, incluidos los gradientes esperados, satisfacen el axioma de integridad. Definitivamente, podemos ver que la completitud es más difícil de satisfacer cuando integramos tanto una ruta como una distribución: es decir, con el mismo número de muestras, los gradientes esperados no convergen tan rápidamente como los gradientes integrados. Si esto es o no un precio aceptable para evitar el daltonismo en las atribuciones parece subjetivo.
Referencias:
1. Interpretable explanations of black boxes by meaningful perturbation Fong, R.C. and Vedaldi, A., 2017. Proceedings of the IEEE International Conference on Computer Vision, pp. 3429--3437.
2. Smoothgrad: removing noise by adding noise [PDF] Smilkov, D., Thorat, N., Kim, B., Viegas, F. and Wattenberg, M., 2017. arXiv preprint arXiv:1706.03825. 3. A unified approach to interpreting model predictions [PDF] Lundberg, S.M. and Lee, S., 2017. Advances in Neural Information Processing Systems, pp. 4765--4774. 4. Learning Explainable Models Using Attribution Priors [PDF] Erion, G., Janizek, J.D., Sturmfels, P., Lundberg, S. and Lee, S., 2019. 5. XRAI: Better Attributions Through Regions , Kapishnikov, A., Bolukbasi, T., Viégas, F. and Terry, M., 2019.
Sturmfels P. (2010), Lundberg S. & Lee S. (2020). Visualizing the Impact of Feature Attribution Baselines. Doi: 10.23915/distill.00022 F. Arteaga, A. Folch-Fortuny, A. Ferrer, Comprehensive Chemometrics, 2020, Pages 615-639
Molnar, C. (2021). Aprendizaje automático interpretable (2.a ed.). lulu.
Goel, N. (s. f.). The Importance of Modeling Data Missingness in Algorithmic Fairness: A Causal Perspective | Proceedings of the AAAI Conference on Artificial Intelligence. Proceedings of the AAAI Conference on Artificial Intelligence. Recuperado 10 de junio de 2022, de https://ojs.aaai.org/index.php/AAAI/article/view/16926